Error Budget
SLOから許される失敗の余地のこと
完璧を目指さず、「多少の失敗を許容する枠」として使う
#wip
/mrsekut-book-4814400349/039 (1.2.3 エラーバジェット)
信頼性スタックの中で最も高度
計算が複雑になることもある
2つのアプローチ
イベントベース
良いイベント、悪いイベント
時間ベース
不良時間間隔
意思決定に使う
エラーバジェットが残っていれば
新しい変更のデプロイ、テスト、カオスエンジニアリングなどができる
そういう感じなんやmrsekut.icon
エラーバジェットを使い果たした場合は、サービスの信頼性を高めることに集中する
/mrsekut-book-4814400349/036
全容がわからないため、この文章だけ読んでも理解できなかったmrsekut.icon
計算方法の例
SLO: 99.9% の成功率
1ヶ月あたりのリクエスト数: 1,000,000件
許容される失敗リクエスト数 = 1,000,000 × (1 - 0.999) = 1,000件
つまり、月内に 1,000件までは失敗OK
↑これがError Budget
GPT-4.icon
Error Budgetの使い方:実践的な例
バジェットを使い切っていない(例:500/1000)
新機能のデプロイOK
積極的に実験・改善
バジェットを使い切った(例:1100/1000)
デプロイを一時停止
信頼性向上のタスクに集中(バグ修正、スケーリング、ロールバックなど)